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摘 要 : [目的 /意义 ] 针 对 包含 单一 类 型 知识 单元 的 知识 网 络 难以 全 面 反映 学 科 知 识 结构 的 问题 ,提出 一 种 从 多 维度 进行 
知识 网 络 结构 融合 的 方法 ,为 学 科 领 域 知 识 结构 挖掘 提供 借鉴 。[ 方 法 /过 程 ] 利 用 LDA 及 TF-IDF 方法 抽取 学 科 
知识 单元 ,然后 运用 语义 相似 度 和 关键 词 共 现 分 析 方 法 构建 3 个 学 科 知 识 子 网 络 :主题 网 络 、 关 键 词 网 络 和 实体 
网 络 ,并 采用 空间 节点 传递 对 齐 方法 对 齐 子 网 络 节点 ,接着 设计 基于 图 卷 积 操 作 的 自 编码 模型 对 知识 节点 进行 表 


示 , 最 后 通过 计算 余弦 相似 度 重 构 学 科 知 识 网 络 。[ 结果 /结论 ] 实验 部 分 以 人 工 智能 领域 为 例 ,构建 融合 主题 、 关 


T- 
> 键 词 和 实体 的 学 科 知 识 网 络 并 展开 分 析 , 实 验 结果 表明 ,本 文 所 提 方 法 能 有 效 地 揭示 学 科 领 域 研究 内 容 和 知识 结 
E 构 ,为 学 科 知 识 发 现 与 组 织 研 究 提 供 有 益 参 考 。 
(d. 网 络 融合 ”知识 结构 “节点 对 齐 ”图 卷 积 神经 网 络 ” 自 编码 模型 
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迅 医 ,在 为 人 们 搜集 和 获取 知识 信息 带 来 便利 的 同时 ， 
节 俩 人 们 陷 人 大 量 分 散 、 多 样 化 的 知识 信息 海洋 中 ,给 
从 宕 观 上 全 面 了 解 知 识 信息 结构 带 来 一 定 的 困扰 。 随 
着 群 学 研究 范围 的 不 断 扩大 和 研究 内 容 的 不 断 深入 ， 
各 领域 的 知识 信息 呈现 出 交叉 融合 的 复杂 局 面 。 在 这 
种 情况 下 ,一 个 刚 进入 某 领域 的 学 者 想 要 快速 了 解 领 
域 知识 结构 和 发 展现 状 存在 一 定 的 困难 ,如 何 梳理 学 
科 知 识 结构 有 效 组 织 领域 知识 信息 成 为 亟待 解决 的 
问题 。 学 科 知 识 结构 是 利用 不 同 知识 组 织 方式 ,揭示 
知识 的 本 质 及 彼此 间 的 关联 ,根据 不 同 的 关联 类 型 " 
和 表现 形式 可 概括 为 层次 知识 结构 和 网 状 知识 结构 ， 
与 层次 知识 结构 相 比 ,网 状 的 学 科 知识 网 络 中 以 其 丰 
富 直观 的 知识 表示 方式 受到 学 者 的 广泛 关注 。 构 建 学 
科 知识 网 络 为 领域 知识 信息 组 织 和 知识 结构 呈现 提供 
了 有 效 途径 ,分 析 学 科 知识 网 络 已 成 为 挖 气 学 科 知识 


结构 和 探测 学 科 领 域 前 沿 的 重要 方法 和 手段 。 学 科 知 
识 网 络 不 仅 可 以 从 微观 层面 揭示 科学 知识 网 络 中 知识 
节点 间 的 相互 关系 ,还 可 以 反映 科学 概念 和 热点 研究 
在 领域 中 的 变化 规律 ” ,跟踪 新 兴 专 业 学 科 领 域 知 识 
结构 变化 态势 对 科研 管理 者 、 科 学 研究 者 和 政策 制定 
者 的 工作 具有 十 分 重要 的 意义 。 

近年 来 ,学 科 知 识 网 络 的 研究 成 果 不 断 涌现 ,通过 
对 相关 文献 的 梳理 发 现 ,目前 关于 学 科 知 识 网 络 的 研 
究 , 多 在 文献 计量 学 的 基础 上 ,以 作者 、 机 构 、 期 刊 . 引 
X .主题 .关键 词 等 单一 知识 单元 构建 学 科 知 识 网 络 ， 
侧重 于 学 科 热 点 发 现 及 领域 合作 情况 的 研究 ,无 法 完 
整地 揭示 某 一 学 科研 究 的 内 在 知识 结构 。 针 对 传统 方 
法 的 不 足 ,本文 以 领域 科技 文献 为 研究 对 象 ,提出 一 种 
整合 主题 关键 词 和 实体 的 学 科 知识 网 络 构 建 方法 ,该 
方法 首先 抽取 主题 关键 词 和 实体 作为 知识 单元 ,基于 
关键 词 共 现 分 析 和 语义 相似 度 计算 方法 ,构建 各 维度 
知识 关联 子 网 络 ,然后 利用 节点 聚 类 和 图 卷 积 自 编码 
模型 按 气 知识 单元 之 间 更 深层 次 的 语义 信息 和 结构 信 
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息 ,生成 一 个 融合 主题 ,关键 词 和 实体 的 学 科 知 识 网 
络 。 以 多 维度 学 科研 究 的 内 容 信息 来 构建 学 科 知 识 网 
? ,突破 了 传统 方法 以 单一 维度 知识 单元 的 共 现 关系 
刻画 知识 结构 的 局 限 性 ,能 够 更 完整 地 体现 领域 知识 
单元 之 间 的 关联 情况 ,从 而 达到 全 面 准确 地 揭示 学 科 
知识 结构 的 目的 。 


2 相关 研究 


近年 来 ,关于 学 科 知识 结构 理论 和 方法 的 研究 成 
果 不 断 涌现 ,具体 归纳 如 下 。 
2.1 “理论 研究 

关于 知识 网 络 的 研究 层出不穷 ,知识 网 络 的 基础 
理论 也 在 不 断 丰 富 ,但 对 知识 网 络 的 定义 没有 统一 界 
ZEA. Seufert 等 认为 知识 网 络 是 由 行为 主体 .主体 之 
同 简 关系 以 及 所 运用 的 资源 和 制度 特性 3 个 方面 组 成 
的 动态 框架 ,通过 知识 转移 和 知识 创造 过 程 积累 和 运 
所 希 识 ,最 终 实 现价 值 创造 ”。 赵 状 英 将 知识 网 络 折 
名 概括 为 :以 知识 元 素 ,知识 点 .知识 单元 ,知识 库 作为 
“ 萄 后 ”, 以 知识 间 的 关联 作为 “ 边 "或 " 链 " 而 构成 的 网 
络 加 。 顾 东 芋 以 哲学 的 方法 描述 学 科 知识 网 络 的 内 
注 认 为 学 科 知识 网 络 是 由 学 科 知 识 元 素 组 成 的 知识 
和 知识 关联 ( 知识 链接 ) 构成 的 网 状 知识 体系 , 具 
背 乔 识 场 分 布 性 \ 相 对 真 伪 性 和 有 序 性 '' 。 另 外 ,不 同 


博 狄 领域 知识 组 织 的 角度 来 看 ,知识 网 络 是 由 学 科 领 
域 宕 识 节点 和 知识 关联 构成 的 网 络 ” 。 国 外 的 管理 学 
界 燃 知识 网 络 定义 为 “是 一 批 人 ,资源 和 他 们 之 间 的 关 
系 6 为 了 知识 的 积累 和 利用 ,通过 知识 创造 .知识 转移 ， 
促进 新 的 知识 的 利用 "W" 。 社 会 学 领域 则 认为 知识 网 
络 是 一 种 “人 际 关系 网 络 ” ,人 们 可 以 从 中 获取 或 交换 
物质 信息 .知识 或 情报 等 资源 。 虽 然 知识 网 络 没有 统 
一 的 定义 ,但 各 种 知识 网 络 定义 的 内 涵 都 可 以 理解 为 
知识 网 络 的 主体 ( 节点) 之 间 的 交互 (关系 ) 作 用 。 
2.2 方法 研究 

近年 来 , 随 着 复杂 网 络 分 析 方法 和 技术 的 兴起 , 目 
前 关于 知识 网 络 构建 的 方法 研究 ,大 多 数 是 以 文献 计 
量 学 和 社会 网 络 分 析 (Social Network Analysis, SNA) 
为 基础 进行 展开 。 利 用 社会 网 络 分 析 方 法 构建 学 科 知 
识 网 络 是 在 文献 计量 的 基础 上 ,以 文献 外 部 特征 如 作 
者 机构. 期刊. 引 文 等 的 共 现 关 系 生成 特定 领域 科学 
合作 网 络 ”" \ 共 被 引 网 络 "- 中 等 ,通过 对 知识 网 络 
进行 属性 分 析 、 中 心性 分 析 、 核 心 - 边缘 结构 分 析 、 凝 
聚 子 群 分 析 ` 节 点 聚 类 ,关键 节点 识别 等 方法 发 现 领域 


研究 热点 和 探测 领域 前 沿 , 这 类 基于 共 现 的 方法 分 析 
学 科 知 识 结 构 的 研究 成 果 十 分 丰富 。 随 着 研究 范围 的 
不 断 扩 大 ,有 学 者 深入 文献 内 部 语义 特征 如 文献 标题 、 
摘要 ,关键 词 全文 等 ,深度 挖掘 学 科 内 部 知识 结构 ,并 
且 在 农业 ” 经济“ \ 医 学 "等 领域 得 到 广泛 应 用 。 
吕 鹏 辉 等 所 -号 分 别 总 结 了 引文 网 络 . 共 被 引 网 络 和 共 
词 网 络 的 结构 .特征 和 演化 研究 方法 ,程序 和 图 谱 绘 制 
流程 ,揭示 了 知识 网 络 节点 之 间 的 关系 ,并 对 相应 知识 
网 络 研究 方法 的 局 限 性 进行 了 讨论 。 关 鹏 、 王 日 芬 
等 ?提出 了 整合 主题 的 学 科 知 识 网 络 构建 与 分 析 
框架 ,扩展 了 学 科 知 识 网 络 的 研究 范围 ,又 利用 主题 在 
科学 文献 中 的 共 现 关系 构建 主题 - 主题 关联 的 学 科 知 
识 网 络 ,提出 了 主题 影响 力 概 念 和 度量 方法 ,后 来 又 基 
于 作者 - 主题 模型 构建 作者 - 主题 关联 的 二 模 学 科 知 
识 网 络 ,利用 作者 在 网 络 中 的 中 心性 指标 度量 作者 主 
题 关 联 影响 力 ,弥补 了 单个 引文 网 络 和 作者 合 著 网 络 
分 析 的 不 足 。 

综 上 所 述 ,当前 关于 学 科 知 识 网 络 的 研究 主要 涉 
及 概念 等 理论 方面 的 探讨 以 及 基于 文献 外 部 属性 和 单 

内 容 信 息 构 建 学 科 知 识 网 络 ,在 内 容 层面 整合 多 维 
知识 单元 构建 知识 网 络 的 研究 较 少 ,并 且 鲜 有 将 实体 
作为 学 科 知识 单元 的 研究 成 果 。 因 此 ,本 文采 用 图 卷 
积 神经 网 络 方法 ,尝试 设计 整合 主题 关键 词 和 实体 的 
学 科 知 识 网 络 构建 框架 ,扩展 学 科 知 识 网 络 构建 方法 ， 
也 为 揭示 学 科 知 识 结构 提供 新 途径 。 


3 多 维度 知识 网 络 融合 方法 研究 


3.1 研究 框架 

本 文 综合 运用 语义 相似 度 和 图 卷 积 神经 网 络 计算 
方法 ,设计 主题 ,关键 词 .实体 这 3 个 学 科 知 识 子 网 络 
的 生成 方法 和 整合 模型 ,以 期 全 面 准 确 地 揭示 学 科 领 
域 知 识 结构 ,具体 流程 如 图 1 所 示 。 首 先 ,对 原始 数据 
集 进 行 预 处 理 生成 语料库 ,抽取 学 科 知 识 单元 ,包括 主 
题 关键 词 和 实体 ,基于 知识 单元 之 间 的 语义 相似 度 构 
建 各 维度 知识 关联 子 网 络 ;其 次 ,对 所 有 节点 进行 聚 类 
生成 模板 网 络 ,用 节点 传递 对 齐 方法 将 各 子 网 络 转 
化 为 节点 固定 大 小 的 网 络 结构 ;最 后 ,利用 图 卷 积 运算 
结合 自 编码 模型 融合 各 子 网 络 并 可 视 化 ,清晰 明了 地 
揭示 学 科 知 识 分 布 及 关联 情况 。 
3.2 知识 单元 抽取 

科技 文献 作为 科学 研究 活动 最 直接 有 效 的 表现 形 
式 , 其 内 容 蕴 含 和 承载 了 不 同学 科 领 域 的 研究 主题 动 
态 演化 脉络 和 发 展 趋势 ” ,对 科学 研究 具有 重要 的 参考 
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1 学 科 知 识 结 构 构 建 流程 


价值 和 指导 作用 。 本 文 以 科技 文献 作为 初始 数据 来 源 ,从 
中 抽取 能 反映 学 科 知 识 的 主题 ,关键 词 和 实体 ,建立 学 科 
知识 单元 表征 体系 。 各 维度 知识 单元 抽取 方法 如 下 : 
3.2.1 主题 

本 文 利用 LDA” 主题 模型 进行 主题 抽取 ,首先 对 
原始 数据 集 进 行 清洗 、 分 词 等 预 处 理 , 然 后 用 困惑 度 确 
定 最 优 主题 数 , 设 定 LDA 模型 参数 并 运行 LDA 程序 ， 
最 后 对 程序 输出 的 “主题 - 18)" 文件 进行 概括 总 结 ,由 
此 得 到 学 科 知 识 主 题 。 
3.2.2 关键 词 

关键 词 是 对 文献 内 容 的 高 度 凝 练 和 概括 ,能 在 更 
大 程度 上 反映 学 科研 究 内 容 , 关 键 词 可 直接 从 语料库 
中 提取 。 


3.2.3 Ek 

利用 改进 的 TF-IDF 算法 ( 见 公式 (1) 和 公式 
(2) ) 筛选 出 语料库 中 的 高 频 词 ,进行 词性 标注 后 , 选 
FE TF-IDF 值 较 大 的 N 个 名 词 作 为 实体 ,参考 主题 和 关 
键 词 的 个 数 确定 N 的 取 值 。 


TF ° +IDF 
TF-IDE,, = — PT = 公式 (1) 
- o eM ce ML 
IDF, log rg. D 公式 (2) 


其 中 ,w 表示 词语 ,d 表示 文档 ,wd 表示 词语 w 在 
文档 d 中 的 频次 ,1d1 表 示 文 档 d 中 包含 词语 的 数量 
3.3 ”知识 子 网 络 构建 

以 3.2 节 抽 取 的 主题 ,关键 词 和 实体 作为 知识 节 
点 ,以 知识 节点 之 间 的 相似 程度 确定 连 边 ,分 别 构建 主 
题 子 网 络 .关键 词 子 网 络 和 实体 子 网 络 。 综 合 文 档 重 
合 度 ” 、 主 题词 相似 度 和 关键 词 相似 度 计算 主题 相似 
度 , 再 分 别 利 用 关键 词 共 现 分 析 和 LR (Likelihood Rati- 
o) “方法 计算 关键 词 相似 度 和 实体 相似 度 , 确 定 合适 
的 阔 值 ,选择 相似 度 大 于 阔 值 的 节点 连 边 构建 相似 度 
矩阵 来 挖掘 知识 单元 之 间 的 关系 特征 ,以 此 构建 学 科 
知识 子 网 络 。 
3.3.1 主题 子 网 络 

将 文档 重合 度 ( doc ww) 、 主 题词 相似 度 Cfea- 
ture on ) 和 关键 词 相似 度 (keywords, )3 个 指标 的 加 权 和 
作为 主题 之 间 相似 程度 的 度量 指标 ,如 公式 (3 ) 所 示 。 
各 指标 计算 方法 如 下 : 

topics, (i,j) =w, doc ooincidenceli j) + Wa features; + 
公式 (3) 

其 中 ,topic,,i ,表示 主题 i 和 主题 j 的 相似 度 , w, 
为 各 指标 对 应 的 权重 , X1, w, =1。 

(1) 文 档 重 合 度 : 根 据 李 慧 光 提出 的 方法 确定 文 
献 子 集 范围 ,主题 之 间 重 合 的 文献 数目 越 多 ,表明 主题 
之 间 的 相似 度 越 高 ,计算 不 同 主题 之 间 文 献 子 集 的 
Jaccard 系数 ( 见 公式 (4) ) 即 为 文档 重合 度 。 公 式 (4) 
中 ,num(set; 站 set,) 表 示 主 题 i 和 主题 j 的 文献 子 集 取 
交集 的 数量 ,num( set U set; ) 表示 主题 i 和 主题 j 的 文 
献 子 集 取 并 集 的 数量 。 


o 


w, keywords (ij 


num( set; N set; ) 


d > WE 八 式 (4 
sa o 


(2) 主 题词 相似 度 :每 个 主题 通常 选择 概率 值 较 
大 的 N 个 词语 作为 描述 主题 的 特征 词 ,以 主题 之 间 特 
征 词 的 余弦 相似 度 来 度量 主题 词 之 间 的 相似 度 。 如 公 
式 (5) 所 示 , 将 所 有 主题 下 的 特征 词 合 并 ,n 为 不 重复 
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特征 词 总 数 , bp, 表示 特征 词 m 在 主题 i 词语 分 布 中 的 明 这 两 个 实体 之 间 具 有 较 强 的 关联 关系 。 基 于 此 计算 


RE, AEA i 不 包含 特征 词 m, 则 p;, 值 为 0。 


È ni Pin * Pim) 
JELaÉ. Xa 
公式 (5) 
(3 ) 关 键 词 相似 度 :将 主题 对 应 文献 子 集中 文档 
包含 的 关键 词 转化 为 向 量 空间 模型 ,计算 关键 词 的 余 
弦 相 似 度 ,如 公式 (6) 所 示 , 夫 ;表示 主题 i 的 第 kk 个 关 
键 词 出 现 的 频次 。 


feature, (1,]) = 


Y f. x tf, 
XU xx OY 
公式 (6) 


keywords „ (i,j) = 


3.3.2 关键 词 子 网 络 

本 统计 所 有 文献 中 出 现 的 关键 词 , 若 两 个 关键 词 在 

同 合 篇 文献 中 出 现 , 则 这 两 个 关键 词 存在 一 次 共 现 关 

ee n s 

Jte ote cd e iid Z I] HEB E C RR , HR IC 

ERDERA EAS E T 

3S5 实体 子 网 络 

CD 使 用 LR 算法 识别 实体 之 间 的 相似 关系 ,LR 是 反 

虹 首 实 性 的 一 种 指标 ,定义 为 有 约 东 条 件 下 似 然 函 数 
值 和 无 条 件 约束 下 似 然 函数 最 大 值 之 比 ,计算 如 
(7) 所 示 , 这 里 一 个 实体 出 现 的 约束 条 件 为 另 一 
体 是 否 出 现 , 即 条 件 概率 p Ce, le ) ,计算 如 公式 

Sranan ms e, 出 现 的 情况 下 实体 。 出 现 的 概 

率 6 著 这 两 个 实体 经 常 一 起 出 现 即 LR 的 值 较 大 , 则 说 


1. 节点 嵌入 维 向 量 空 间 2. PARKA 


一 个 实体 和 其 他 实体 的 LR 值 ,选取 LR 值 较 大 的 实体 
作为 该 实体 的 相似 实体 ,以 此 生成 实体 相似 度 矩 阵 。 
pleile,) 


LR(e, ,e,) ee 公式 (7) 
公式 (8) 
p(e) 


根据 相似 度 和 矩阵 分 别 构建 主题 子 网 络 .关键 词 子 
网 络 和 实体 子 网 络 ,作为 学 科 知 识 网 络 3 个 维度 的 知 
识 结构 图 ,为 后 续 网 络 融 合 工作 竟 定 基础 。 

3.4 知识 子 网 络 融合 

从 不 同 维度 构建 的 知识 子 网 络 中 存在 相同 或 者 相 
似 的 知识 节点 ,比如 主题 ,关键 词 和 实体 网 络 节点 可 能 
表示 同一 种 技术 方法 .名词 术语 或 者 研究 对 象 。 知 识 


网 络 融合 是 将 使 用 不 同 规则 构建 的 知识 子 网 络 整合 为 
一 个 更 完整 的 知识 网 络 ,其 关键 是 判断 不 同 网 络 中 两 
个 知识 单元 是 否 描述 同一 对 象 ,包括 节点 对 齐 和 结构 
融合 两 个 步 又 。 
3.4.1 节点 对 齐 

本 文 参考 论文 123 ] 中 提出 的 节点 传递 对 齐 方法 ， 


将 任意 大 小 的 网 络 转 为 固定 大 小 的 网 络 结构 ,该 算法 
分 为 3 个 步骤 ,框架 如 图 2 所 示 , 伪 代码 见 表 3。 本 文 
将 3.3 节 构 建 的 3 个 知识 子 网 络 表 示 为 6G = | 6,6,， 
G;1 ,每 个 知识 子 网 络 结构 可 表示 为 Cr = (Vp, Ep, Ap, 
X,) , Vy 表示 节点 的 集合 , 严 表示 连 边 的 集合 ,A 表示 
子 网 络 G6 的 邻接 矩阵 ,X 表示 节点 的 属性 特征 矩阵 。 


成 模板 网 络 3. 三 个 子 网 络 与 模板 网 络 传递 对 齐 


2 节点 传递 对 齐 算法 框架 


(1) 节 点 艇 入 K 维 向 量 空间 。 假 设 任意 一 个 知识 

子 网 络 Cr 包含 0 个 节点 ,使 用 节点 舱 入 方法 将 知识 子 
网 络 中 的 每 个 知识 单元 映射 到 一 个 K 维 向 量 空间 进行 
向 量化 表示 。 第 P 个 子 网 络 中 第 i 个 节点 的 K 维特 征 


向 量 记 作 DB，， = | vec, ,UeC, ,** ,VECK| ,所 有 知识 4 单元 的 
向 量 可 用 集合 R = | Ri, Rs,…, Ry| 表示 ,N 为 知识 单 
元 总 数 。 


(2) 节点 聚 类 生成 模板 网 络 。 使 用 Kmeans RX 
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算法 将 所 有 子 网 络 的 节点 聚 成 M 个 类 ,通过 最 小 化 目 
标 函 数 ( 见 公式 (9) ) 得 到 M 个 聚 类 中 心 PR" = fj， 


得 到 对 齐 和 矩阵 C; 后 ,第 了 个 子 网 络 添加 自 环 的 邻 
接 和 矩阵 为 4; BI A, 5A +7,7 为 单位 矩阵 ,节点 属性 特 


us sd ,每 个 聚 类 中 心 节 点 用 K 维 向 量 进行 表示 ， 
M 个 聚 类 中 心 构 成 一 个 模板 网 络 。 

arg ming Èj Eg Ec || Ri -w | ARO) 

(3) 所 有 子 网 络 结构 与 模板 网 络 传递 对 齐 。 分 别 

计算 每 个 子 网 络 中 的 每 个 节点 与 模板 网 络 节点 集合 的 
距离 矩阵 ,将 第 P 个 知识 子 网 络 与 模板 网 络 的 K 维 节 
点 向 量 的 距离 矩阵 表示 为 Dr ILE 1, 子 网 络 的 第 i 个 
节点 与 模板 网 络 的 第 j 个 节点 的 欧式 距离 可 由 公式 
(10) 计 算得 出 。 

D5(i,j) = y £x || DBK; -w | ARAO) 

表 1 ， 子 网 络 与 模板 网 络 的 距离 矩阵 


- mi mi e m i Dr 
LØ DB(1,1) — DÉ(I,2) DE j) DEM) 
GE en — nb DO.) DO.) 
e5 DB(i,1) D$(i,2) DB(i,)) DB(i,M) 
ramus 

" 
—1 Mb. 
bw B 
cs DĶ(n,1) D5(n,2) D5(njj) D5(n,M) 
CA 


CN 对 齐 矩 阵 C7. 表示 为 一 个 二 值 矩 阵 , 可 以 从 距离 矩 
Ep) 中 推导 出 来 :在 距离 矩阵 Dj 中 ,车 第 1 行 第 j 列 
为 第 i 行 的 最 小 值 , 则 对 齐 和 矩阵 对 应 位 置 的 值 为 1 , 否 
igo ins QD BER 


S L, 车 DX(i)) 为 第 i 行 最 小 什 
© cxdi) = , 
i 0, 其 他 


c AST) 
@O 在 对 齐 矩 阵 中 ,每 行 公有 一 个 元 素 为 1, 其 余 为 0， 
表示 子 网 络 中 的 每 个 节点 都 只 对 应 模板 网 络 中 的 一 个 
节点 ,与 模板 网 络 中 特定 节点 对 应 的 子 网 络 节点 可 能 
有 多 个 ,因为 模板 网 络 节点 是 聚 类 产生 的 , 子 网 络 节点 
之 间 具 有 相似 性 ,相同 或 相似 节点 与 同一 模板 节点 对 
齐 是 合理 的 ,如 表 2 所 示 。 另 外 ,如 果 两 个 子 网 络 中 的 
节点 都 与 模板 网 络 中 相同 的 节点 对 齐 时 ,这 两 个 子 网 
络 的 节点 也 是 对 齐 的 ,因此 这 种 对 齐 关系 是 传递 的 。 
表 2 子 网 络 与 模板 网 络 的 对 齐 和 矩阵 


ut u$ is m B uM 
RK 0 1 e 0 e. 0 
RE 1 0 e. 0 e. 0 
RE 0 0 1 0 
RK 0 0 1 0 


AERE EOS X, ,利用 公式 (12) 和 公式 (13) 可 计算 对 齐 后 
各 子 网 络 的 邻接 矩阵 AT 和 特征 矩阵 Xpo 
Ap=(Cp) (A) (C) 公式 (12) 
Xe=(Ce) X, 公式 (13) 
节点 传递 对 齐 算 法 的 伪 代 码 如 表 3 所 示 : 
X3 ”节点 传递 对 齐 算法 伪 代 码 
Input:3 个 子 网 络 C= 16,,65,64| 及 网 络 结构 Gp = (Vp,Ep,Ap,Xp) 
Output: 各 网 络 对 齐 后 的 邻接 矩阵 4 及 特征 矩阵 总 


/* 节点 传递 对 齐 算法 */ 
/ NAA 7/ 


1. method node, aligned 


2. for P in [1,3] do 


3. for V;in V» do 

4. DBK j—|vecy veca, veceg} 。。/# 节 点 i 的 K 维 向 量 表示 */ 
5. end for 

6. end for 

7. Rh | RE,RE REI /* 所 有 节点 的 向 量 表示 */ 
8. (C4,C5, Cuy) Kmeans /* RE wx / 

9. for C; in (C,, C5, Cy) do / 计算 聚 类 中 心 * 7/ 

10. př —L— gym DBK，/* 聚 类 中 心 :类 中 节点 向 量 的 均值 */ 
ti, end for 

12. foriin [1,M] do /ox 节点 对 齐 */ 

13. forjin[1,n] do 

14. D$(i,j) = V Ek] DBK i-u? — /* 距 离 矩阵 */ 

15. end for 

16. end for 

17. foriin[1,M] do /xMAOÉE «7 

18. forjin[1,n] do /A*n 个 节点 */ 

19. 过 D$(i,j) = = min D$(i,) do/ « DPK (i,j) 是 第 i 行 最 小 值 */ 
20. CH(i,j) 一 1 

21. else do 

22. C$(i,j) —0 

23. end if 

24. end for 

25. end for 

26. forPin[1,3] do / * 对 齐 后 的 邻接 矩阵 和 特征 和 矩阵 * / 
27. Af- CC)" (A) (Ch) 

28. XE—(CE)T X, 

29. end for 

30. return A5, Xf 


31. end method 


3.4.2 结构 融合 

将 网 络 节点 结构 信息 的 表示 学 习 问 题 转化 为 词语 
的 表示 学 习 问 题 ,本 文 利 用 神经 网 络 语言 模型 挖 气 网 
络 节点 属性 的 次 层 语 义 信 息 , 再 利用 属性 相似 性 对 网 
络 结构 进行 刻画 。 经 过 传递 对 齐 后 的 所 有 子 网 络 均 有 
M 个 节点 ,N 个子 网 络 共 有 N* M 个 节点 。 将 所 有 节 
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点 按 序 排列 后 ,运用 基于 图 卷 积 运 算 的 自 编码 神经 网 
络 模型 进行 联合 训练 ,得 到 综合 节点 属性 信息 和 结构 


信息 的 节点 表示 向 量 。 该 算法 包括 3 个 步骤 ,框架 流 
程 如 图 3 所 示 ,具体 描述 如 下 : 


! 编码 层 解码 层 | 
6: m Em E 卷 积 层 卷 积 层 卷 积 层 卷 积 层 i 
SH 到 卷 积 运算 输入 ! 图 卷 积 到 卷 积 到 卷 积 层 BER | 
I I 
= yog) = or Was) | | 
6: e Sign —M[ Z7? concat»[ Y Hevaan x Zi Zz— P——Xz—»| i 
Je | 
| i 
Ga A [ 图 卷 积 运算 初步 整合 |! | 
! 最 小 化 损失 函数 oss = Xll- xl? ! 

1 ! RE , e" 

(D 基于 图 卷 积 运算 的 初步 整合 |o 他 基于 图 卷 积 自 编码 解码 的 节点 表示 学 习 上 OZTR MEAR 


图 3 

(1) 基于 图 卷 积 运算 的 初步 整合 。 对 任意 一 个 子 
网 络 Cp = (V, ,E,,A,,X,) , S Ap A, € I, M 为 节点 个 
CT, 为 单位 矩阵 ,对 角 和 矩阵 D; ON A BA D RO BE AS 
MOATE D^ = X, An ,表示 与 节点 1 相连 的 边 的 
SERO, Ai C6,, 通 过 一 个 两 层 的 图 卷 积 运算 得 到 节 


ARA Z” ,如 公式 (14) 所 示 。 
e 


2 -f(X,,A,,W; ,WL) = Sofimax (À, Relu(À, X, 
WS) 公式 (14) 


QO 其中 ,4, = D, ^ A, D, RAS ORE ME A, 进 
EBA, W; Wr 表示 第 一 层 和 第 二 层 的 权重 矩阵 ， 
民 信 为 非 线性 激活 函数 。 经 过 计算 ,每 个 子 网 络 都 会 
得 到 一 个 节点 嵌入 ZO ,将 所 有 子 网 络 的 节点 艇 入 按 
REIER, ,生成 一 个 包含 N * M e gn A 
PEZ, 计算 sigmoid BRI y (x, a) =o] W,) ,WW 为 超 
参数 权重 矩阵 , z ,z RRRA Z 中 节点 i 和 
的 /的 嵌入 向 量 , 选 择 合适 的 阔 值 ,大 于 阔 值 的 节点 
之 间 建 立 连 边 ,得 到 初步 整合 的 网 络 结构 。 

(2) 基 于 图 卷 积 自 编码 的 节点 表示 学 习 。 图 卷 积 
神经 网 络 的 卷 积 操作 可 以 聚合 节点 的 属性 和 连接 信 
息 , 自 编码 网 络 可 以 在 无 监督 情况 下 进行 表示 学 习 , 本 
文 将 图 卷 积 神经 网 络 和 自动 编码 器 相 结合 ,构建 图 郑 
积 自 编 码 网 络 模型 。 根 据 输 入 网 络 的 节点 和 连接 信息 
设置 卷 积 参数 ,通过 最 小 化 损失 函数 来 指导 网 络 训练 。 
如 图 3 中 第 (2) 部 分 所 示 ,该 网 络 分 为 编码 器 和 解码 器 
两 部 分 ,编码 器 为 聚合 网 络 节点 属性 和 连接 信息 的 郑 
积 编码 层 , 解 码 器 为 对 卷 积 特征 进行 重建 的 解码 层 , 答 
出 是 在 设法 重建 节点 的 输入 属性 ,损失 函数 即 为 重建 
损失 ,如 公式 (15 ) 所 示 , 当 输出 与 输入 的 差异 越 小 时 ， 
表明 网 络 的 学 习 能 力 越 强 。 


1 Ns] , A 
loss = M EG IX-X% I? (AR 15) 


子 网 络 融 合算 法 流程 


编码 器 和 解码 器 的 结构 都 包含 了 两 个 卷 积 层 ,在 
本 文 的 实证 研究 部 分 ,输入 节点 数 为 213 个 ,节点 特征 
维 数 为 100 ,其 权重 参数 设置 如 表 4 所 示 。 通 过 不 断 调 
整 参数 来 最 小 化 损失 函数 ,以 期 从 网 络 结构 中 获取 更 
多 的 信息 量 , 并 将 最 后 一 次 的 输出 信息 碟 作 为 节点 的 
属性 特征 向 量 ,其 与 输入 特征 有 着 相同 的 维 数 。 
表 4 图 卷 积 自 编 码 网 络 模型 参数 设置 


卷 积 层 输入 输出 激活 层 

编码 1 213 64 Softmax 
32 100 Sigmoid 

解码 1 213 32 Sigmoid 
2 64 100 Softmax 


(3) 基 于 余弦 相似 度 的 网 络 重 构 。 将 图 卷 积 自 编 
码 网 络 模型 的 输出 信息 作为 网 络 节点 的 向 量 表示 , 利 
向 量 空 间 的 余弦 相似 度 ( 见 公式 (16) ,K 为 向 量 的 维 
数 ) 计 算 节 点 之 间 的 相似 程度 ,并 确定 合适 的 阔 值 ,以 
此 来 构建 最 终 的 学 科 知 识 网 络 。 
Eia y) 
SE aAa 


jzl 7j 


Cm 


cos sim — 


- 公式 (16) 


4 ”实证 研究 


“人 工 智 能 ”作为 目前 计算 机 领域 最 热门 的 研究 
方向 之 一 ,已 经 成 为 推动 社会 发 展 不 可 或 缺 的 技术 资 
源 ,其 跨 学 科 性 和 广泛 的 应 用 前 景 使 得 相关 研究 成 果 
层出不穷 ,是 近 几 年 国内 外 科学 研究 的 热点 问题 。 为 
了 帮助 科学 研究 者 充分 了 解 该 领域 学 科 知 识 结构 , 同 
时 验证 本 文 提 出 的 知识 网 络 融合 方法 的 有 效 性 ,本 文 
选择 人 工 智能 领域 的 中 文 文献 作为 实验 数据 来 源 , 控 
掘 学 科 知 识 结构 并 进行 可 视 化 ,最 后 对 实验 结果 展开 
分 析 。 

4.1 数据 获取 与 预 处 理 
本 文 检索 人 工 智能 领域 近 十 年 的 中 文 文献 ,删除 
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少量 关键 词 和 摘要 信息 不 完整 的 数据 后 , 共 得 到 文献 
10 224 篇 ,如 表 5 所 示 。 利 用 Hanlp 软件 包 '” 对 文献 


的 标题 和 搞 要 进行 分 词 .提取 双 连 词 .去 停 用 词 .词性 
标注 等 预 处 理 , 生 成 建 模 需 要 的 语料库 。 


表 5 数据 来 源 
数据 类 型 ” ”检索 时 间 范 围 。 ”数据 库 来 源 检索 表达 式 来 源 类 别 文献 类 型 “检索 结果 
中 文 文献 2009/01M01 一 中国 知 网 CNKI (SU = 人 工 智能 or TI = 人 工 智能 )and SCIEI\ 核 心 期 刊 .CSSCI 和 CSCD HP — 10224 篇 
2019/01/01 (KY = 人 工 智能 or KY = AD) 


4.2 实验 设置 与 结果 分 析 
4.2.1 实验 参数 设置 
(1)LDA 主题 抽取 。LDA 的 相关 算法 已 经 很 成 熟 ， 
通过 计算 链接 困惑 度 确定 最 优 主题 数 T 为 53, 其 他 参数 
根据 参考 文献 [29 ] 和 经 验 值 设 定 ,具体 如 表 6 Bron: 
表 6 LDA 模型 参数 说 明 


模型 参数 参数 说 明 
T 文本 集 在 潜在 主题 上 的 狄 利克 雷 先 验 ,a =50/T 
Sp 潜在 主题 在 特征 词 集 上 的 狄 利克 雷 先 验 ,B =0.02 
LO; 最 优 主题 数 53 


rds 主题 下 特征 词 个 数 ,twords =30 


c3" Gibbs 抽样 迭代 次 数 ,niters = 1000 


(2) 知识 子 网 络 构建 。 利 用 前 文 提 到 的 知识 单元 
扩 束 和 相似 度 计算 方法 ,计算 各 维度 知识 单元 的 相似 

以 此 构建 知识 子 网 络 ,经 过 多 次 实验 对 比 ,各 维度 
m H JOE RE BE ES I Pe BE RE ll e 7 所 
未 SN 其 中 ,关键 词 提取 词 频 20 以 上 .累计 占 比 25% 。 


(3) 点 对 齐 。 本 文 用 词 向 量 来 表示 知识 单元 的 
属性 特征 ,在 主题 抽取 部 分 ,对 各 主题 含义 进行 了 人 
工 概括 总 结 ,可 能 出 现 部 分 表示 主题 的 词语 并 未 在 
语料库 中 出 现 , Word2 Vec 模型 无 法 学 习 此 类 词语 的 
向 量 表 示 ,同时 考虑 到 程序 实现 的 简单 性 原则 ,因此 
本 文选 择 gensim 软件 包 的 FastText ”模型 学 习 知 识 
单元 的 词 向 量 表示 。 高 纬度 的 词 向 量 可 以 更 丰富 地 
表示 词组 的 语义 信息 ,同时 也 会 增加 神经 网 络 模型 
参数 的 数量 而 导致 过 拟 合 ,根据 参考 文献 ”将 词 
句 量 维 数 设 为 100。 

根据 词 向 量 对 知识 单元 进行 K-means 聚 类 ,通过 
轮廓 系数 法 确定 最 优 聚 类 数目 M, 如 图 4 所 示 。 最 初 
抽取 的 知识 单元 总 数 为 305 ,考虑 到 最 终 网 络 节点 个 
数 不 应 该 超过 知识 单元 总 数 , 且 为 了 降低 信息 损失 ,最 
终 节 点 个 数 不 能 太 小 ,因此 将 最 小 聚 类 数目 设 为 50 ,M 
大 于 90 的 不 再 考虑 ,最 终 聚 类 数目 M 设 为 71。3 个 子 
网 络 节点 对 齐 后 ,最 终 会 得 到 213 个 节点 的 100 维 向 


(1) 单 个 子 网 络 分 析 。 根 据 前 文 所 述 子 网 络 构建 


识 2S4 = 、 zs NR 
之 RT 知识 子 网 络 相关 参数 量 表示 ,再 计算 对 齐 后 的 邻接 矩阵 和 特征 矩阵 ,作为 图 
DE 知识 元 数目 。。 关联 装 值 。。 关联 关系 (对 | 卷 积 自 编码 网 络 的 输入 ,进行 节点 属性 特征 表示 学 习 。 
Ea 53 0.311 396 4.2.2 实验 结果 分 析 
ass 关键 词 152 20( 词 频 ) 2 692 
dn 实体 100 0.221 701 
0.305 
0.300 
0.295 
i 
ES 0.290 
0.285 
i 
0.280 
0.275 
50 60 70 80 90 100 


M 


图 4 轮廓 系数 法 确定 聚 类 数目 M 


方法 ,以 3 个 维度 抽取 的 知识 单元 构建 知识 关联 子 网 
络 ,利用 Pajek 软件 进行 可 视 化 ,根据 节点 的 度 和 连接 
权重 对 节点 分 类 , 以 不 同 颜色 进行 区 分 ,如 图 5 -图 7 


所 示 。 其 中 , 度 相同 的 节点 有 相同 的 颜色 ,节点 越 大 表 
示 节 点 越 重要 ,对 应 的 研究 内 容 通常 用 来 表示 一 个 领 
域 的 研究 热点 。 
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5 主题 子 网 络 结构 
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图 6 关键 词 共 现 子 网 络 结构 


从 图 5 可 以 看 出 ,主题 网 络 中 节点 大 小 比较 接近 ， 
主题 倾向 于 从 宏观 层面 表示 领域 研究 内 容 ,如 智能 机 
器 人 、 环 境 监 测 、 驱 动作 业 、 运 动 模型 和 机 器 人 生产 。 
从 图 5 还 观察 到 , 人工 智能 领域 的 主题 主要 侧重 于 技 
术 应 用 层面 的 研究 ,重点 关注 智能 制造 ,智能 体检 、 家 
庭 机 器 人 、 云 课堂 和 决策 理论 ,涉及 制造 业 、 医 疗 、 管 能 
家 居 和 教育 等 传统 行业 的 应 用 ,部 分 涉及 语义 学 习 、 空 
间 定 位 模型 算法 和 计算 机 视觉 等 技术 的 研究 ,说 明 目 
前 人 工 智 能 领域 的 技术 已 逐渐 趋 于 成 熟 。 另 外 , 主题 
网 络 中 存在 一 个 孤立 节点 “ 寻 路 ”, 该 主题 理应 与 空间 


定位 .定位 匹配 ,运动 模型 和 运动 仿真 等 主题 直接 或 间 
接 关 联 ,表示 与 机 器 人 运动 路 径 相 关 的 研究 。 图 6 为 
关键 词 共 现 网 络 ,与 主题 网 络 相 比 ,更 侧重 于 从 细 粒 度 
描述 领域 研究 内 容 , 如 支持 向 量 机 、 卡 尔 曼 滤波 、 粗 燃 
集 等 具体 算法 。 关 键 词 既 有 自然 科学 领域 对 人 工 智能 
技术 本 身 的 研究 ,又 有 社会 科学 领域 对 人 工 智能 的 应 
用 场景 ,如 大 数据 、 神 经 网 络 .机 器 学 习 、 深 度 学 习 、 路 
径 规 划 图像 处 理 和 计算 机 视觉 等 炙手可热 的 关键 技 
术 , 以 及 物 联 网 .智能 机 器 人 、 农 业 机 器 人 决策 系统 和 
知识 工程 等 相关 领域 的 应 用 。 但 最 关键 的 研究 内 容 依 
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然 是 智能 机 器 人 (“人 工 智能 "和 “机 器 人 ”两 个 关键 词 
所 占 比重 最 大 ) 的 研究 ,这 与 最 热 主 题 为 “智能 机 器 
人 "” 相 一 致 。 从 图 7 实体 关联 网 络 可 以 观察 到 ,实体 更 
多 关注 领域 内 表示 研究 对 象 . 行 业 团体 .工具 等 实物 
性 内 容 , 如 地 图 、 图 像 \ 机 器 ,课程 教师 、 文 化 制造 业 、 
新 媒体 、 会 议 . 专 业 委员 会 和 专家 系统 等 ,为 了 能 与 主 
题 和 关键 词 网 络 更 好 地 融合 ,在 筛选 实体 时 也 包含 一 


.一 (2 ) 整合 网 络 分 析 。 利 用 3.4 节 提出 的 图 卷 积 自 纺 
硒 网 络 模型 学 习 网 络 节点 的 向 量 表示 ,神经 网 络 模型 的 
学 加 率 为 0.01 , 迁 代 次 数 为 1 000 ,经 过 多 次 实验 ,平均 
准确 率 在 0. 86 左右 。 利 用 训练 出 的 节点 属性 特征 重新 
计 千 节点 的 相似 程度 ,通过 筛选 共 保留 3 721 对 关系 ,并 
根据 聚 类 结果 和 对 齐 矩 阵 对 同一 类 含义 接近 的 节点 进 
行 合 并 ,对 节点 名 称 进行 概括 总 结 ,构建 的 学 科 知 识 网 
络 如 图 8 所 示 。 从 图 8 中 可 以 看 出 ,融合 后 的 知识 网 络 
结构 中 不 存在 孤立 节点 ,网 络 中 包含 宏观 的 主题 节点 如 
风险 识别 .仿真 技术 .机 器 人 .图像 处 理 、 数 据 挖 所 等 ,也 
包含 微观 层次 的 关键 词 如 卷 积 神经 网 络 、 人 工 神经 网 
络 三 元 组 .跟踪 算法 等 ,另外 ,表示 实体 的 图 片 、 视 频 、 
患者 ,车辆 ,地 图 等 也 囊括 其 中 。 图 中 包含 3 种 类 型 的 
节点 ,都 可 看 作 人 工 智能 领域 的 知识 单元 ,与 传统 单个 
子 网 络 相 比 ,融合 的 知识 网 络 结构 能 够 更 全 面 地 反映 学 
科 的 研究 内 容 和 知识 结构 ,具体 做 如 下 分 析 : 

第 一 ,研究 热点 。 观 察 到 图 中 较 大 的 节点 有 抓 取 
姿态 .机 械 辟 .机 器 人 教学 .机 器 人 ,农业 机 器 人 工业 
机 器 人 ,跟踪 算法 .路 线 、 神 经 网 络 、 人 工 神经 网 络 、 卷 


7 实体 子 网 络 结构 


些 关 键 技术 ,如 深度 学 习 、 智 能 控制 、 模 式 识别 等 。 
5 -图 7 中 都 包含 极 少 数 孤 立 节 点 ,如 主题 寻 路 、 关 键 
词 定 理 证 明和 自动 化 实体 机 器 人 运动 学 等 。 在 主题 
网 络 中 ,即使 综合 前 文 所 述 的 3 种 方法 对 主题 的 相似 
度 进 行 计 算 ,依然 存在 部 分 关联 关系 未 被 挖掘 出 来 ， 
此 ,对 3 个 网 络 进行 融合 及 重 构 以 期 挖 据 出 完整 的 学 
科 知 识 结 构 显 得 十 分 必要 。 


机 如 人 运动 学 


n 


积 神经 网 络 ,图片 地 图 ,图像 检测 ERA Beie 
仿真 技术 .信息 资源 、 风 险 识别 .环境 识别 等 ,涉及 人 工 
智能 领域 智能 机 器 人 、 路 径 规划 、 深 度 学 习 、 计 算 机 视 
觉 、 信 息 检 索 以 及 人 工 智 能 用 于 指导 决策 等 相关 问题 
的 研究 ,表明 这 些 内 容 是 领域 关注 的 热点 ,经 参考 
《2019 人 工 智能 发 展 报告 》” 相关 介绍 ,笔者 发 现 与 人 
工 智能 领域 的 重点 研究 内 容 基 本 一 致 。 

第 二 ,知识 关联 。 整 合 后 的 知识 网 络 中 ,热点 研究 
问题 和 关键 技术 与 其 他 知识 节点 联系 紧密 ,如 与 机 顺 
人 图像 检测 图片、 神 经 网 络 等 节点 相连 的 知识 节点 
较 多 。 另 外 ,在 网 络 边缘 部 分 可 以 看 到 ,涉及 智能 教 
育 、 机 器 学 习 、 智 能 机 械 、 医 疗 机 器 人 和 仿真 等 知识 单 
元 之 间 的 连接 关系 比较 紧密 ,与 其 他 知识 簇 的 联系 比 
较 稀 玻 ,在 网 络 中 形成 一 个 个 小 的 社团 。 

(3) 讨 论 。 本 文 提出 的 知识 网 络 构建 模型 是 一 种 
无 监督 学 习 方 法 ,人 工 智 能 领域 没有 权威 的 知识 网 络 
可 供 参 考 ,传统 的 评价 指标 如 准确 率 、 召 回 率 、 精 度 等 
也 不 适合 用 来 验证 本 文 方法 的 有 效 性 。 查 阅 相关 文 
献 ” ,从 以 下 3 个 方面 分 析 所 提 方 法 的 有 效 性 : 
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t 8 融合 的 网 络 结构 
〇 第 一 , 子 网 络 节 点 重复 率 。 对 比 3 个 子 网 络 图 中 | 的 研究 内 容 。 
的 点 可 以 发 现 ,主题 ,关键 词 和 实体 3 种 类 型 的 节点 “| emg BARETA EOM 
E mS 融合 网 络 节点 总 数 


全 年 一 定 的 重复 性 ,用 重复 节点 数 与 所 有 节点 数 的 比 
| 17) Brzn : 


ES 复 节 点 
N ul ARO) 


Ge 知识 单元 集合 中 的 重复 记 和 同义词 (如 人 
BET RU" AT") ,本 文 构建 的 3 个 子 网 络 共 305 个 节 
性 起 中 两 个 网 络 相 重复 的 节点 数 48 个 ,两 节点 重复 
KJ 15.74% ,3 个 网 络 中 相 重 复 的 节点 数 有 4 个 ,分 
别 旦 智能 制造 .计算 机 视觉 .智能 机 器 人 和 知识 工程 ， 
从 给 广 来 看 ,这 几 个 知识 单元 是 能 示 研 究 主题 ,也 可 
作为 文献 关键 词 ,还 可 用 来 表示 相关 实体 概念 ,其 重复 
率 为 1.312% 。 可 见 ,两 个 网 络 的 节点 重复 率 较 高 ,如 
果 直 接 通过 节点 词 向 量 计算 节点 相似 度 的 方法 进行 整 
合 , 会 存在 部 分 节点 重复 ,从 而 给 知识 网 络 结构 带 来 一 
定 的 宛 余 性 。 经 过 节点 聚 类 后 ,相同 或 相似 的 知识 单 
元 被 聚 为 同一 类 ,对 同一 类 别 的 知识 单元 进行 再 总 结 ， 
可 有 效 降低 知识 单元 的 重复 率 。 

第 二 ,融合 网 络 新 增 节点 占 比 。 结 合 领域 背景 和 
知识 子 网 络 知识 单元 的 内 容 , 对 聚 类 后 的 知识 单元 名 
称 进行 总 结 ,保留 多 数 原 知识 节点 ,对 相似 节点 含义 重 
新 概括 ,包含 213 个 节点 ,其 中 , 原 节点 150 个 ,节点 保 
留 率 70.42% ,新 增 节 点 63 个 , 占 比 29.58% ,如 公式 
(18) 所 示 。 通 过 聚 类 方法 对 齐 节点 , 既 保留 了 大 部 分 
原始 单一 网 络 中 的 知识 单元 ,又 通过 新 增 节点 对 原 知 
识 单元 进行 了 概括 补充 ,能 够 更 充分 地 展示 一 个 领域 


公式 (18) 
第 三 ,融合 网 络 新 增 连 边 占 比 。 原 知识 子 网 络 中 
的 关系 只 包含 同类 型 知识 单元 之 间 的 联系 ,比如 主题 
和 主题 之 间 , 融 合 后 的 知识 网 络 包 含 知识 子 网 络 内 部 
的 结构 和 子 网 络 之 间 的 关联 关系 。 融 合 的 知识 网 络 共 
3 721 条 边 ,统计 新 增 节 点 之 间 的 连 边 、 原 节点 之 间 的 
新 增 连 边 以 及 原 节 点 和 新 增 节点 之 间 的 连 边 共 2 324 
条 , 占 比 62.46% , 即 有 37. 5496 的 关系 来 自 原 知 识 网 
络 。 因 此 ,文中 提出 的 图 卷 积 自 编 码 模型 很 好 地 聚合 
了 原始 网 络 结构 ,同时 挖掘 出 更 多 的 知识 关联 关系 。 
通过 上 述 分 析 , 融 合 的 知识 网 络 在 领域 研究 热点 
发 现 .知识 关联 关系 挖掘 等 方面 表现 良好 ,利用 节点 聚 
类 和 图 卷 积 网 络 自 编码 模型 能 够 聚合 子 网 络 结构 和 节 
点 的 属性 信息 ,能 较 全 面 准确 地 揭示 领域 知识 单元 之 
间 的 关联 关系 。 同 时 ,本 文 构建 神经 网 络 无 监督 模型 
学 习 知 识 节点 的 特征 信息 ,不 需要 标记 数据 ,对 其 他 应 
用 场景 同样 适用 ,对 异 构 网 络 融合 具有 借鉴 价值 。 


5 结论 


本 文 提 出 了 一 种 融合 主题 .关键 词 和 实体 的 学 科 
知识 网 络 构建 方法 。 首 先 利 用 自然 语言 处 理 方法 对 中 
文 语 料 进 行 预 处 理 , 采 用 LDA TF-IDF 方法 抽取 人 工 
智能 领域 的 主题 和 实体 ,提取 语 料 中 的 关键 词 ,其 次 ， 
基于 语义 相似 度 和 关键 词 共 现 分 析 构建 学 科 知 识 子 网 
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络 , 然 后 设计 了 基于 图 卷 积 的 自 编码 网 络 模 型 学 习 知 
识 单元 向 量 表示 方法 ,最 后 利用 余弦 相似 度 重 构 整 个 
学 科 知 识 网 络 ,达到 挖掘 学 科 知识 结构 的 目的 。 通 过 
对 人 工 智能 领域 知识 网 络 的 分 析 和 讨论 ,证 明 方 法 的 
有 效 性 和 准确 性 。 

对 学 科 领 域 知识 点 进行 抽取 并 有 效 组 织 ,可 以 帮 
助 科学 研究 者 快速 了 解 领域 研究 热点 和 知识 结构 。 现 
有 知识 网 络 构建 方法 涉及 多 维度 知识 融合 的 方法 较 
> ,本文 提出 的 知识 网 络 融合 方法 ,不 但 能 捕 提 到 知识 
单元 的 语义 信息 ,还 对 子 网 络 中 节点 的 结构 信息 也 进 
行 了 聚合 ,这 种 无 监督 的 知识 单元 表示 学 习 方法 效率 
更 高 ,其 学 习 到 的 节点 向 量具 有 通用 性 ,可 用 于 解决 知 
识 单元 聚 类 .分 类 等 问题 。 
一 本 文 的 不 足 之 处 在 于 :对 主题 和 聚 类 后 的 知识 单 
元 含义 进行 了 人 工 总 结 ,存在 一 定 的 主观 性 ;通过 计算 
余 弱 相似 度 进行 网 络 重 构 ,增加 了 工作 量 , 未 来 将 尝试 
诈 汗 更 先进 的 算法 对 节点 的 连 边 进行 预测 ;实证 研究 
部 劲 只 对 中 文 的 文献 数据 进行 了 验证 ,抽取 的 学 科 知 
误 南 容 可 能 不 全 面 ,未 来 考虑 融合 多 种 数据 源 构建 学 
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Multi-Dimensional Subject Knowledge Network Fusion Method Based on 
Graph Convolution Self-Encoding Model 
Li Hui Hu Jixia 
q= School of Economic & Management , Xidian University , Xi' an 710126 
> Abstract; | Purpose/significance | Aiming at the problem that the knowledge network containing a single type 
knowledge unit cannot fully reflect the knowledge structure of the subject, a method of integrating knowledge net- 
Grðrk structure in different dimensions is proposed to provide a reference for the knowledge structure mining in the 
ject area. | Method/process | This paper used LDA and TF-IDF methods to extract subject knowledge units, and 
E used semantic similarity and keywords co-occurrence analysis methods to construct three subject knowledge sub- 
Cétworks: topics network, keywords network and entities network , and adopted spatial nodes transfer alignment align 
nodes of the sub-networks, then designed a self-encoding model based on the graph convolution operation to re- 
Cpresent the knowledge nodes, and finally reconstructed the disciplinary knowledge network by calculating the cosine 
GN isis. | Result/conclusion | The experimental part takes the field of artificial intelligence as an example to con- 
E a subject knowledge network that integrates topics, keywords, and entities and conducts analysis. The experi- 
ental results show that the method proposed in this article can effectively reveal the research content and knowledge 
cture of the subject area, and provide a useful reference for the discovery and organizational research of subject 
* knowledge. 
Oo Keywords; network fusion knowledge structure node alignment graph convolutional neural network self- 


coding model 
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